准确地检测出文本抑郁症的模型是解决流行后心理健康危机的重要工具。基于BERT的分类器的有希望的性能和现成的可用性使它们成为此任务的绝佳候选人。但是,已知这些模型会遭受性能不一致和概括不佳的损失。在本文中,我们介绍了甲板(抑郁清单),抑郁症特异性模型的行为测试,可更好地解释性并提高抑郁域中BERT分类器的普遍性。我们创建了23次测试,以评估BERT,Roberta和Albert Depine Classifiers在三个数据集中,两个基于Twitter和一个基于临床访谈的分类器。我们的评估表明,这些模型:1)对于文本中的某些性别敏感变化是可靠的; 2)依靠使用第一人称代词的使用的重要抑郁语言标记; 3)无法检测到其他一些抑郁症状,例如自杀念头。我们还证明,甲板测试可用于将特定于症状的信息纳入训练数据中,并始终提高所有三种BERT模型的概括性,而分布外F1得分的提高最高可达53.93%。
translated by 谷歌翻译